生 JPEG エ ンコ ー ダ の 
SystemC モデ ル を 作成 し て 


ご ヘイ ビア 合成 
ーー ツー ル に まかせ る 部 分 と 人 手 で 最適 化す る 
部 分 を 見 極め る 


ここ で は , ディ ジタル ・ カ メラ の JPEG エン コー ダ の 開発 を イ 
メー ジ し な が ら , SystemC と ビヘイビア 合成 の 利用 方 法 を 解 
説 す る . JPEG エン コー ダ の 処理 の うち , ハー ドウ ェ ア 化 し た 
と き の 効 果 が 高い と 思わ れる RGB-YUV 変換 と DCT (離散 コ 
サイ ン 変 換 ) の 部 分 に つい て SystemC モデ ル を 作成 し , ビ ヘ へ 
イ ビ ア 合成 を 実施 し た . ビヘイビア 合成 ツー ル に すべ て を ま か 
せる こと は 現実 的 で は な く , 人 手 に よる 最適 化 を 加え て 性 能 を 
逐次 改善 する 必要 が ある . (編集 部 ) 


最近 の LSI 設計 は 規模 に 対し て 設計 期間 が 短い こと が 多 
い の で す が , 今回 の 記事 も 設計 期間 と 執筆 期間 ) が た い へ 
ん 短く , その 制約 の 中 で ビヘイビア 合成 を 用 いて どの よう 
に ハー ド ウェ ア 化 を 行っ た か に つい て 紹介 し ます . 

設計 期間 が 短い こと か ら , 設計 の 手 戻 り を 極力 避け る 必 
要 が あり , 最初 に 設計 フロ ー を 検討 し まし た . 検討 し た 設 
計 フ ロー で は , まず 全体 の 分 析 を 行う た め に SystemC で 
モデ リン グ し , 次 に その モデ ル を 分 析 し て ビヘイビア 合成 
を 行う 場所 を 決定 し , 続い て ビヘイビア 合成 用 の SystemC 
モデ ル を 作成 し まず 図 1). ビヘイビア 合成 用 モデ ル の 記 
述 を , た だ 合成 可能 な だ け の モデ ル か ら , より サイ クル 数 
の 短い 回 路 を 生成 する モデ ル へ 書き 換え まし た . その 後 , 
ビヘイビア 合成 を 行っ た 結果 を フィ ー ド バッ ク し た 分 析 モ 
デル を 作成 し , 少し 詳細 な 評価 を 行い まし た. 

ここ で は ビヘイビア 合 威 ー ル と し て , デ ザイ ン オ ー 
トメ ーション の DesignPrototyper」 を 利用 し て いま す が , 
最適 化 の 考え か た な ど は , ほか の ツー ル で も 共通 に 適用 で 


【 


ン 変 換 ) を 基本 と し た JPEG Joint Photographic Experts 
Group) の エン コー ダ 部 で p.52 の コラ DCT と は 」 を 
参照 ) JPEG は 画像 圧縮 / 伸 張 方 式 の 一 つ で , 非 可 逆 変換 
と 可逆 変換 , お よび モノ クロ と カラ ー に 対応 し て いま す . 
処理 概要 を 図 2 に 示し ます . 入力 され た 画像 が RGB で 与 
えら れ ま す . これ を YUV YC。C.) に 変換 し , その 変換 さ 
れ た YUV に 対し て DCT 処理 を 行い , 周波 数 空間 に 変換 し 
まず p.54 の コラ ム RGB と YUV」 を 参照 )、 その 後 , 量子 
化 処理 で 信号 レベ ル を 制限 し , ハフ マン 符号 化 を 行い ます . 
量子 化 処理 で は , 低い 周波 数 の 信号 は 詳細 に 量子 化し , 高 
い 周 濾 数 の 信号 は 粗く 量子 化す る こと で 圧縮 率 を 上 げ て い 
ます . また , ハフ マン 符号 で は よく 出現 する 符号 に 短い コ 
ー ド を, あま り 出 現し な い 符 号 に 長い コー ド を 割り 当て る 


分 析 用 SystemC モ デル の 作成 較 入力 画像 共 
ハー ド ウェア 化す る 場所 の 検討 凶 
DCT 処 理 図 
ビヘイビア 合成 用 記述 の 作成 図 
量子 化 凶 
ビヘイビア 合成 用 記述 の 最適 化 凶 
ハフ マン 符号 化 凶 
合成 結果 か ら の 情報 抽出 図 1 
圧縮 デー タ 図 


図 2 JPEG エンコーダ の 
概要 


分 析 用 SystemC モ デル の 詳細 化 凶 


図 1 今回 の 設計 フロ ー 入力 画像 の RGB デ ー タ を YUV 


複数 の こと を 同時 に 行う と 失敗 する 可能 性 〔 YCuC) デ ー タ に 変換 する . そ 
が 高く , 失敗 し た と き の 解 析 に 時 間 が か の 変換 され た YUV デ ー タ に 対し 
か る . 「 急 が ば 回 れ 」 の 発想 で 設計 フロ ー て DCT 処 理 を 行い , 周波 数 空間 


ンコ ー ダ 部 を 対象 (ご 認 に 変換 する . その 後 , 量子 化 処 
念 JPEG エン コー ダ 部 を 対象 に 設計 を 考え た MM 
今回 , ハード ウェ ア 化 を 検討 し た の は DCTI 離散 コ サ イ 


きる と 思い ます . 


マン 符号 化 を 行う . 
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こと で 圧縮 率 を 高め て いま す . 圧縮 デー タ か ら 画 像 を 生成 
する に は , 圧縮 と 逆 の 手順 で 実行 する こと に な り ま す . 
設計 フロ ー の 第 1 段階 し し て , ここ で は JPEG エ ンコ ー 
気 以下 JPEG) の SystemC モ デル を 作成 し ます . と いっ 
て も JPEG の プロ グラ ム を 一 か ら 作る と た い へ ん で す . 
SystemC を 使う 利点 の ー つ は 既存 の コー ド を 再 利用 し や す 
いこ と な の で , この 部 分 は サボ る こと を 考え まし た . つま 
り , すでに C 言 語 で 作成 され た JPEG の プロ グラ ム を リフ 
ァ レ ンス と し て 利用 し ます . 検索 サイ ト ず JPEG ソー ス 」 
な ど と 入力 し て 検索 する と , Independent JPEG Group の 
Web サ イト ( http://wwwjg.org/) に た どり 着き まし た . 
その 使用 条件 を 見 た と ころ と くに 問題 が な いと 思わ れる の 
で , fftp://ftp.uunet/graphics/jpeg/jpegsrc.v6Db.tar.gz の 
ソー ス ・ コ ー ド を 利用 し まし だ 利用 な ど に 際 し て の 条件 
は , 同 梱 の README フ ァイル の 記述 に 従う も の と する ) 


る リフ ァ レ ンス C コー ド か ら SystemC モデ ル を 作成 

この よう な リフ ァ レ ンス の C/C++ プロ グラ ム が あれ ば ぱ ば, 
第 1 段階 の SystemC モ デル の 作成 は 簡単 に な り ま す . この 
リフ ァ レ ンス か ら SystemC モ デル を 作成 する た め , 以下 の 
作業 を 行う 必要 が あり まし た . 


SC_MODULE (pe96 ) 


リス ト 1 
JPEG の SC MODULE の SC_F1fO 1n<1n> Cmd: 
定義 vo1d main(): 


起動 の イベ ント と な る cma を SC_CTOR (peg6) 
定義 し , リフ ァ レ ンス の main SC THREAD (main) : 
関数 を 利用 する た め に コン ス ) 

トラ クタ で gc rHREAD の プ }: 

ロ セ ス main を 宣言 し た . 


⑧⑫@】 時 | 四 DCT と は 


画像 処理 で は , 離散 フー リ 工 変換 DFT : discrete Fourier trans- 
form) の 一 種 で ある 離散 コサイン 変換 DCT : discrete cosine trans- 
form) が よく 利用 され ます . と くに 8 画素 X 8 画素 の ブロ ッ ク を 対象 
時 い られ , これ は 2 次 元 の 画像 信号 を 周波 数 空間 


と し た DOT が よく 
に 変換 する こと に 相当 し ます . また 逆 に , 周波 数 空間 か ら 画像 信号 に 
戻す 変換 は IDCIC inverse DCT : 逆 離 散 コ サイ ン 変 換 ) と 呼ば れ て 
いま す . 

8 画素 X 8 画素 の DCT は 以下 の よう に 定義 され ます. 


+① 女 4 (2 の +) 友 
16 16 
に ( a-1) 


1 こぐ (ex 
PC7G の = ュ CC,2 2 pe/(ruy)cos 
x=0 =0 
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1) SC_MODULK jpeg6) の 作成 

まず は , 8C MODUTE と し て jpeg6 を 作成 し まず リス 
ト 1). この 段階 で は クロ ッ ク や リ セット を 意識 し な い の で , 
プロ セス と し て 8C THREAD を 選択 し ます . コン スト ラク 
タ に 8SC THREAD と し て main を 宣言 し まし た . JPEG の 処 


理 を 起動 する 信号 が 必要 に な る た め , 入力 信号 cmq を 
作成 し まし た . リス ト 1 を 見 て わか る よう に , 簡単 に 8C_ 
MODULE を 定義 で きま す . 


2) main 関数 の 変更 

さら に プロ セス main を 完成 させ る 必要 が あり ます . こ 
こ で は リフ ァ レ ンス の main 関数 を 変更 し , SystemC の プ 
ロ セ ス に し まし た . これ は リフ ァ レ ンス の CC 言語 記述 が 
SystemC の 流儀 に 従っ て いな いた めで , 以下 の 2 種類 の 変 
更 が 必要 で し た . 
eint mair( int argc, char *argv) の 返り 値 , 引き 数 の 

変更 
e プロ セス に お ける while ルー プ の 作成 

リス ト 2 に 示す よう に , モジ ュー ル の main プロ セス に 
する た め , 返り 値 を void と し , 引き 数 を ロー カル 変数 に 
し まし た . また , 引き 数 を ロー カル 変数 に する と 必要 な 情 
報 が 渡せ な く な る の で , グロ ー バ ル 変 数 を 利用 し て デー タ 
を 渡す こと に し まし た . あま り 美しい と は 言え な い 方 法 な 
の で す が , 時 間 を か けず に SystemC に する 一 つの 方 法 で 
は ある と 思い ま す . 

リフ ァ レ ンス で は 1 度 処 理 す る と 終了 する プロ グラ ム と 
な っ て いま し た が , 今回 の 用 途 で は 要求 が あめ っ た と き に 
JPEG の 処理 を 行う こと に な る の で , main の 処理 部 分 を 
while(1) で 囲み ます . 


ここ で , 7 0 の と き は ,= 1/2, その ほか の と き は 選 ,= 1 に な 

り ま す . 
DOT が 画像 処理 に よく 使わ れる 理由 は , 以下 の と お り で す . 

e 高速 な 解 注 chen, wang な ど ) が あり , 画像 の よう な サイ ズ の 大 
きい デー タ に も 適用 で きる 

e 素 数 演算 で 実現 で きる た め , ( 浮動 小数 点 演算 を 使う 場合 より ) 容 
易 に 利用 で きる 

e 高 域 と 低 域 を 別々 に 圧縮 する こと に より , 視 党 的 に 劣化 の 少な い 画 
像 圧縮 を 実現 で きる 自然 画像 で は 低 域 の 成分 が 大 きく なり, 高 域 
の 成分 が 小さ く な る 傾向 に あり , か つ 人 間 の 感覚 は 高 域 より 低 域 の 
変化 に 敏感 で ある た め ) 


8C THREAD で は , JPEG の 処理 要求 が あっ た と きだ け 処 
理 を 行い た い の で , その whi1e 文 の 直後 に sc Eifo_ 
jp の 入力 omd を 読む お よう に する こと で , 外部 か ら の コマ ン 
ド 入力 を 待ち ます . これ で 完成 し た か と 思っ て コン パイ ル 
し て 実行 する と , 本 来 , 複数 回 JPEG エ ンコ ー ド を 行う は 
ず な の に , 1 回 実行 し た と ころ で 終了 し で し まい まし た .。 よ 
く プ ログ ラム を 見 て みる と , リフ ァ レ ンス の プロ グラ ム の 
最後 に 処理 が 終了 する と , exit 関数 を 呼ん で 終了 し て いま 
し た. 今回 の モデ ル で は exit せ ず に 次 の 処理 を 待つ 必要 
が ある の で , その 部 分 を コメ ント ・ ア ウト し まし た . 

これ に より , 実行 可能 が つま り , シミ ュ レ ーション 可 
能 な ) SystemC の モデ ル を 10 分 程度 で 作成 する こと が で き 
まし た . 画像 の 入力 ・ 出力 に ファ イル を 使う こと に な り ま 
す が , ほか の モジ ュー ル と デー タ の や り 取り を 行う こと も 
可能 で す . ファ イル 渡し で は な く , メモ リ の モジ ュー ル な 
ど を 作っ て 入力 ・ 出力 で きる よう に する と , も う 少 し 実機 
に 近い モデ ル を 作成 で きま す . この 第 1 段階 で は , その よ 
うな 詳細 化 を 行う 前 に , ここ で 作成 し た SystemC モ デル 
を 使っ て , ハー ド ウェ ア 化 する た め の JPEG の プロ グラ ム 
の 挙動 を 調べ る こと に し ます . 


⑯ プロ ファ イル を と っ て ハー ド 化 する 箇所 を 決定 

今回 は 設計 期間 が 短い た め , JPEG エ ンコ ユ コーダ 全 体 を ハ 
ー ド ウェ ア 化 する こと は 困難 で し た . そこ で , も っ と も 効 
率 が 良い と 考え られ る 場所 に 絞っ て ハー ド ウェ ア 化 する こ 
と に し まし た . 

みな さん は , どの よう に し て ハー ド ウェ ア 化 する 場所 を 
決め ます か ? 小 規模 な 設計 で あれ ば , 設計 者 の 勘 を 信じ て 
決め て も それ ほど 問題 は あり ませ ん . し か し , 大 規模 な 設 
計 で は , 裏づけ が な けれ ば 怖く て 開発 で き な い と 思い ます 
( も し , 予定 の 性 能 が 出 な か っ た ら ど うす る ? ). 

ここ で は ソフ ト ウェ ア の 世界 で よく 利用 され て いる プロ 
ファ イラ を 利用 し ます . SystemC を 使う に は C/C++ コン 


Cumu]a1V@e 
SecCondg 
0. 


図 3 

プロ ファ イラ の 結果 上 位 8 関数 ) 

プロ ファ イル ・ オ プシ ョ ン を 付け て C/C++ 
( SystemC) を コン パイ ル し , 実行 する と , 各 
関数 の 実行 時 間 の 割合 や 呼び 出し 回 数 な ど を 確 
認 す る こと が で きる . 


リス ト 2 C 言 語 か ら SysetmC へ の 変更 作業 

man 関数 を SystemC の プロ セス に 変更 する . その た め に , 引き 数 を ロ 
ル 変 数 と し , グロ ー バ ル 変 数 か ら 値 を コピ ー す る . また , whi1e(1) で 
こと に より , 繰り 返し 処理 で きる よう に する . 


(int arqdC, Char **a エ dV) 


変数 定義 以下 省略 


寺 カ 


囲む 


( a) C プ ログ ラム の mann 関数 


char 
char 


91oba1 inputfF11e[256] : 
91oba1 ouCputfF11e[256] : 


void 
jpeg6 : :main () 


1n ardoz 

char arqdv[100] [256] : 

/* 残り の 変数 定義 省略 */ 
whi1e(1) { 

cmd . read ( ) : 


ardC =6: 
argv[0]=”cJpeg': 
argv [1] =” -outEi1e”: 
gtropy (g1oba1 outputfile, gl1oba1 1npuF1i1e) : 
gtroa (gl1oba1 outputfi1e, pg”): 
argV [2] =g1oba1 outputf11e: 
argv [3] =” -dot” 有 
argv [4] =” Fagt” H 


( b) SystemC の プロ セス に 変更 


パイ ラ が 必要 で す が , 一 般 に その コン パイ ル ・ オ プシ ョ ン 


と し て プロ ファ イラ が 用 意 さ れ て いま す . gcc で は オプ シ 
ョ ン -pg を 付け て コン パイ ル す る と , プロ グラ ム の 実行 情 
報 が gmon.out に 出力 され , gproF コ マン ド で プロ ファ イ 


ル 情 報 を 見 る こと が で きま す . 


図 3 か ら わ か る よう に , 上 位 三 つ の 関数 で ソフ トウ ェ ア 
と し て の 実行 時 間 の 63% を 超え て いま す . この ソフ トウ ェ 


ア の 実行 時 間 と ハー ド ウェ ア 化 し た と き の 実 行 時 間 は 直接 
的 な 関係 は な い の で す が , ビヘイビア 合成 を 使う 場合 に は 
それ な り の 相関 が ある と みな し , 今回 は この プロ ファ イル 


情報 を 利用 する こと に し まし た . 
を 使え ば , その 呼び 出し 回 数 な どの 
ェ ア で も 利用 で きま す . 


Se1F ge1F tota1 
Secondg ms/ca11 ms/ca11 
0 0. 0. 


name 
Forward DCT 

エ rdD CC_COnVer セ 
Jpeg_fdot ifag 上 


encode one b1ock 
emit big 

h2y2 downsamp1e 
encode mocu hufEf 
Compres8 _ data 
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また , 同じ アル ゴリ ズム 
直 は その まま ハー ドウ 
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P 図 4 
関数 の 呼び 出し 関係 
ある 程度 の まとまり を ハー ド ウェ ア 


procesgs data smple main 


化す る と 人 作業 が 楽に な る . 


係数 テー ブル 図 


1 ライ ン 較 4 


Ed 


図 5 RGB-YUV 変 換 の 入力 お よび 出力 
リフ ァ レ ンス の C プ ログ ラム で は も っ と 多く の デー タ に アク セス で きる が , 


ェ ー テ rgb yoo convert 19.05%) 凶 


トー 。 DrG DFOCeSS_Qaa 一 | 


トー* h2v2 downsamp1g 5.95%) 区 
ェ ーー= Forward DC 25.60%) 較 


し L_ ょ compress dat& 1.19%) 較 一 L_ ょ jpeg fdct ifasK 18.45%) 図 
し ー= enoode mou huff 1.19%) 較 


トー= encode one b1ock 16.67%) 図 


| 員 emit bit& 10.12%) 較 


成 で きる わけ で は な い の で , 合成 可能 な 記述 合成 サブ セ 


ハー ドウ ェ ア 化 する 場合 に は , 変換 に ほん と うに 必要 な 入力 と 出力 を 明確 に ッ ト ) に 変更 する 必要 が あり ます . 先ほど リフ ァ レ ンス の 
0 C プ ログ ラム を SystemC 化 し た プロ グラ ム も , その まま で 
は ビヘイビア 合成 で きま せん . 

今回 は , 上 位 の 関数 を 中 心 に ハー ド ウェ ア 化 を 検討 する RGB-YUV 変換 を 行っ て いる 関数 を リス ト 3 に 示し ます 
に し まし た . 関数 の 呼び 出し の 関係 を 図 4 に 示し ます . ( オリ ジ ナ ル か ら 少 し 変更 し て いる ). この まま で は 合成 で 

そし て その 内 部 を 調べ て , rgb yocc convert と DOT き な い の で す が , その 大 き な 理 由 は , リフ ァ レ ンス 記述 が 
( forward DCT と Jpeg fdct ifast) の 部 分 を ハー ド ポイ ンタ を 使っ て アド レス 計算 を 行い , 配列 に アク セス し 
ウェ ア 化 する こと に 決定 し まし た . て いる た めで す . その よう な プロ グラ ム は , 今回 の ビ ヘ イ 


人 @ RGB-YUV 変換 の 処理 を ビヘイビア 合成 


ビア 合成 ツー ル で は 合成 で きま せん . 大 き な 構 造 体 の ポイ 
ンタ も 渡し て お り , この ポイ ンタ を 使う と , も と も と 関数 


次 に , ビヘイビア 合成 を 用 いて どの よう に ハー ドウ ェ ア で は 使用 し な い 情 報 な ど へ も アク セス で きま す . し か し 
化し た か に つい て 説明 し て いき ます . ハー ド ウェ ア で は ポー ト 経由 や メモ リ 経由 で デー タ を 転送 
ビヘイビア 合成 ツー ル で は SystemC の 記述 の すべ て を 合 する た め , むだ な 情報 を 渡す と , むだ な 配線 や むだ な 記憶 


リス ト 3 RGB-YUV 変 換 の リフ ァ レ ンス ・ コ ー ド 


Yo1d rgb yo conVer (] 


my CCOnVG エ 上 D エ CCOnVG エ 
register in て, d, D: 
reg1ster TNT32 * oEaD = 


red1 Ster JSAMPROW 1npt エ , 
red18ter JDTMENSTON co1 : 


JDTMENSTON num ColS = G 


1nmp エ = *1nmDu Du++ : 
Outpt エ 0 ouEpu buFf [0 
Outp キ 上 エ 1 ouEpuE buf [1 
Outp て tr2 = outpu buf[2 
OutDUut エ OW++: 

for (co1 = 0: Co1 < num Co18: で CO]++ ) { 
RGB RED] ) : 

RGB_ GREEN] ) : 
RGB BLUE] ) 

に 

E) 


GETJSAMPLE ( inpt エ 
GETJSAMPLE ( inpt エ 

= GETJSAMPTE ( 1npt エ 
1nmptr += RGB PTXELSTZ 
Outptr0 [co1] = (JSAMPTi 


( (ctab [r+R Y OFEF] + ctab[g+G_Y OFF] + cab[Db+B Y OFF] ) 


_COmpreS8 pt エ oinfo, 
TSAMPARRAY 1npu Duf, 
JDTMENSTON Outpu 上 エ Ow, 

上 = (my cconver p と ) 


CCOnVeG エ ヒー> 了 dbD CC ab: 


1nfo- >1mage_w1dEh : 


[output row] : 
[output row] : 
[output row] : 


>> SCATLEBTTS) , /* Y */ 


Outpt 上 て 1 [Co] ] = (JSAMPT 


( (ctab [r+R CB OFEF] + ctab[g+G_CB_OFF] + ctab[b+B CB OFF] ) 


選 ) 


>> SCALEBTTS) , /* CD */ 


Outptr2 [co1] = (JSAMPTi 


E) 


Outp 上 0 , OuEpt エ 1 , 


Outpt 上 エ 2 


SAMPTMAGE Outpu 上 buf , (@(⑥) LU M N| RGB と YUV 


int num rows) 人 { 
C1nFO- >CCOnVG エ 人 : 


光 の 3 原色 は 寺 red), 緑 green), 
( blue) で す が , 画像 を 圧縮 する 場合 は RGB で 
は な く , YUV を 使い ます . ここ で Y は 輝度 信 
号 ,U C。) と C.) は 色差 信号 で す . 人 間 の 
目 の 特性 と し て , 輝度 に 比べ て 色差 の 変化 に 
対す る 感度 が 鈍い た め , 色差 信号 は 輝度 信号 
より 高い 効率 で 圧縮 する こと が 可能 で す . 


本 稿 で は , RGB か ら YUV に 変換 する 際 に 
以下 の 式 を 使用 し まし た . 


= が x0④990+ Cx⑩$⑧870+ px⑳⑩4140 
ー が x⑯4684- Cx0⑩3316+ px⑩⑯ あ 5000+ 128 
= が x⑪⑯$000- Cx⑩4187 - 奈 6⑳0813+ 128 
( 四 


( (ctab [r+R CR OFEF] + cab[qd+G_ CR OFF] + ctab[b+B CR OFF] ) 


>> SCALEBTTS) : /* 


Cr */ 
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リス ト 4 RGB-YUV 変 換 の モジ ュー ル 宣 言 


RGB と YUV の デー タ を 格納 する 配列 を グロ ー バ ル 変 数 と し て 宣 
言 し , ほか の モジ ュー ル か ら 読み 書き で きる よう に し た . 


リス ト 


5 rgb_ycc_convert を 合成 可能 に 変更 


ポイ ンタ を 使用 し な い 形 に 記述 を 変更 し , 係数 テー ブル を 配列 と し て 宣言 し た . 


8c 1n 上 <32> cab [2048] ={ 


#inc1ude <sygtemo .h> 
uns1gned char 
uns1gned char 
uns1gned char 
uns1gned char 
uns1gned char 
uns1gned char 


buf G[2048] 
buf B[2048] 
buf Y[2048] 
buf U[2048] 
buf V[2048] 


SC_MODULE (rgb yuv) 人 { 
SC_1n<Doo] > 
SC_1n<Doo] > 
SC_1n<Doo] > 
SC_1n<So 1n<16> > 
SC_ Out<Doo] > 
SC _1nm モ <16> 


c1oock : 
re8e : 
S キ ar : 
width: 
done: 


Wi 

// width を 記憶 する 変数 

Yo1d rgdD yoo_ConVer ( 1n num Co18) : 

Yo1d ma1n DroCe88 ( ) : 

SC_CTOR (rgb_yuv) { 
SC_CTHREAD (main prooess, 
watohing(reset .de1ayed ( ) 


) 


cl1ook . pos () ) : 
== 1)』 


1 


領域 , むだ な 実行 サイ クル が 発生 し て し まい ます . 

今回 は , 以下 の 手順 で ビヘイビア 合成 を 行い まし た. 
1) 入力 と 出力 を 明確 化 

むだ な 情報 を 渡さ な いた め に も RGB-YUV 変換 に 必要 な 
デー タ を は っ きり させ ます . 

この 機能 に 必要 な も の は , 入力 に つい て は 1 ライ ン 分 の 
RGB データ , ライ ン ・ サ イズ , 係数 の 配列 , 出力 に つい て 
は 1 ライ ン 分 の YUV デー タ と な り ま ず ポ 図 5). 今回 は , 最 
大 の ライ ン ・ サ イズ を 2048 と し , RGB お よび YUV の デー 
タ ご と に 配列 メモ リ ) を 定義 し まし た . ライ ン ・ サ イズ 
は , 今後 の 拡張 も 含め て 16 ビ ッ ト の 整数 と し て いま す . 係 
数 の 配列 に つい て は , 内 部 に ROM と し て 用 意 し ます . そ 
の た め , 入出 力 か ら 外し まし た . 

また , ハー ド ウェ ア 化 する と き に 必要 な 信号 と し て , ク 
ロッ ク ( cl1ock), リセ ッ ト ( reset), お よび 処理 の 開始 
を 指示 する start 信号 , 処理 の 完了 を 示す done 信号 を 用 
意 し まし た . 
2) コン スト ラク タ を 作成 

今回 の ツー ル で ビヘイビア 合成 を 行う た め に は , 8C_ 
CTHREAD で プロ セス を 定義 する 必要 が あり ます . オリ ジ 
ナル の 関数 rgp ycc convert は 8C CTHREAD と し て は 
不 十分 な の で 変更 せ ず , ここ で は main procesg と いう 
プロ セス を 用 意 し , その 中 か ら rgb ycc conver を 呼 
び 出 すこ と に し ます . ここ まで で , リス ト 4 に 示す よう に 
基本 的 な クラ ス を 定義 きも こと が で きま す . 


【 


#deFine SCALEBTTS 
Yo1d rgb_ yuY: :rgb yoo_ convert(1nt num co1g) { 


/* 中 身 は 省略 */ 


buf R[2048] : ), // da map to_resouroe rom 


16 


せ nE. の お お) 
SC_1n キ <16> Co1 : 

Char Y,U,Y: 

SC_1n<32> 上 , YU, て 上 Y: 
For (co] = 0: 
buf R 
buf G[co1] : 

buf B[co1] : 

ty =(ctab [ エ ] + cab[g+1*256] + cab [b+2*256] ) 
y = ty.range(7,0): 

buf Y[oco1] =y: 

u= (ctaDb [ エ +3*256] + otab[q+4*256] + otabD[b+5*256] ) >> SCALEBTTS : 
buf U[co1] =u: 

Y= (otaDb [ エ +5*256] + otab[q+6*256] + otab[b+7*256] ) >> SCALEBTTS : 
buf V[co1 


co1 < num co1s: Co1++) { 
Co1] : 


( 


>> SCALEBTTS : 


= 


main procesg を SC CTHREAD と し て 宣言 する と き , 
c1ock .pos () と する と , クロ ッ ク の 立ち 上 が り で 動作 す 
る こと に な り ま す . また , watching で reset が 1 の と 
き に 同期 リセ ッ ト が か か る こと を 宣言 し て いま す . 

3) 機能 を 合成 可能 な 記述 へ 書き 換え 

リフ ァ レ ンス で 記述 され て いた まま の コー ド で は ビ ヘ へ ヘイ 
ビア 合成 で き な い の で , ポイ ンタ な ど を 配列 に 書き 換え ま 
す . また , 係数 テー ブル の 配列 の データ も あら か じ め 計 算 
し た も の を 用 意 し ます . その 結果 , rgb yococ conver 上 
は リス ト 5 の よう に 変わ り ま す . 

また , 係数 の 配列 は ROM と し て 実現 する の で , コメ ン 
ト で ROM に する ディ レク ティ ブ を 与え て いま す . 

4) 初期 化 お よび 処理 手順 を 決定 

リス ト 6 に main process の 処理 を 示し ます . ここ で 
は 初期 化 お よび 処理 手順 を 記述 し ます . 最初 に 出力 信号 
done を 初期 化し ます . その 後 , wh1e (1) で 繰り 返し 処 
理 を 行い ます . この 繰り 返し で は , start 信号 が 1 に な 
る まで 待ち ます . start 信号 が 1 に な れ ば , 処理 する ラ 
イン ・ サ イズ を 読み 出し , rgb yco conver を 呼び 出し 
て RGB-YUV 変換 を 行い ます . rgb yocc convert の 処 
理 が 完了 し た ら , done 信号 を 1 に し , その 次 の サイ クル 
で done 信号 を ′ 0 に し て , start 信号 が 1 に な る の を 
待ち ます . 

5) sc_main を 作成 
リス ト 7 に 示す よう に, 今回 使用 し た ビヘイビア 合成 ツ 
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リス ト 6 main_process の 定義 


Yo1d rgb yuv: :main prooess() { 
/ / nitia1ize 
done .write(0) : 
wa1 () : 


while(1) { 
wa unti1 (gtar .delayed() == 1) : 
w = width .read ( ) : 
db CC_ConVer (w) : 
done .wF1te(1) : 
wa () : 
done . write(0) : 


リス ト 8 resource.res の 内 容 


Altera 社 の ライ ブラ リ 1pm 1p ram 8x2048 と 今回 用 意 し た myrom 32x2048 
を 定義 し て いる . 
Sdef resfi1e : 
mapmem -re8 1pm 1p ram 8x2048 -vVar buf R -ins umR: 
mapmem - エ eS8 1pm 1D ram 8x2048 -var buf G -+nms umG: 
mapmem - エ eS 1pm 1D ram 8x2048 -vVar buf B -+ns umB: 
mapmem -reS 1pm 1p ram 8x2048 -var buf Y -ins umY: 
mapmem - エ eS 1pm 1D ram 8x2048 -vVar buf U -+ns umU: 


mapmem - エ eS8 1pm 1D ram 8x2048 -var Duf V -+ns umV: 


mapmem -re8 myrom 32x2048 -Var otab -1ngs uROMoaD : 


Send def resfFi1e : 


ー ル で は , sc main 内 に ハー ド ウェ ア 化 する モジ ュー ル 
を イン スタ ンス し , ポー ト 接続 を 行う 必要 が あり ます . こ 
の どき 。 信成 する モジ ュー ル に コメ ツ ト で ディ レク ディ プ ブ 
を つけ ます . 
6) ビヘイビア 合成 を 実行 

これ で よう や く ビヘイビア 合成 が 行え ます. ここ で は 今 
回 使用 し た ビヘイビア 合成 ツー ル に 付属 する ライ ブラ リ の 
関係 か ら , 米国 Altera 社 の FPGA FLEX10KE フ ァ ミ リ 」 
を 対象 に ビヘイビア 合成 を 行い まし た . も ちろ ん 合成 用 ラ 
イブ ラリ を 用 意 す れ ば , ほか の デバ イズ ス (ASIC や FPGA ) 
を ター ゲッ ト と し た 時 register transfer level) 記述 も 
生成 で きま す . 

今回 は , RGB と YUV の デー タ を 外部 メモ リ ( RAM), 
係数 テー ブル を 内 部 メモ リ ( ROM) と し て 実現 し ます . 今 
回 の ビヘイビア 合成 ツー ル で は , 使用 する RAM, ROM の 
情報 を 用意 し , 設計 の 中 の どの 配列 と どの RAM, ROM が 
対応 する か を resourceres に 記述 し まず リス ト 8). また , 
外部 メモ リ と し て 実現 する 場合 に は , 実行 時 に オプ ショ ン 
ず -extmem イン スタ ンス 名 」 を 指定 し ます . 
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リス ト 7 sc_main の 作成 
今回 使用 し た ビヘイビア 合成 ツー ル は sc_main を 見 て 合成 モジ ュー ル を 決 
定 す る の で , イン スタ ンス し , ポー ト 接続 を 行う 必要 が ある . 


nt go _matn(inE argc, Char **ardY)  { 
SC se ime resolut1ion(1, SC NS) : 
SC _se defau1t time un1i(1, SC NS) : 


SC_c1ook c1ock( "clock” , 100, 0.5, 0, 
SC_S1gna] <Dboo] > エ eBSe 』 
SC_S1gna] <boo] > 8 ヒ a エ 
SC_s1gna1<boo1] > done : 
SC_Ss1gna1<so 1nt<16> >  w: 
rdD YUuY u(“ urgb_ yuv0" 90: 

.c1ook (c1ock) : 

. エ ege (rege 七 ) : 

. 紀 ヒ a エ て ( 8 上 ar エ 七 ) : 

-W1dth (w) : 

.done (done) : 


// ida TYPE HP 


/* テス ト ベン チ 記 述 */ 


7) RTL で シミ ュ レ ーション 

RTL シ ミュ レー ショ ン を 行っ て , 問題 が な いか どう か を 
チェ ッ ク し ます . 基本 的 に は , SystemC や C/C++ の シミ 
ュ レ ーション 結果 と 一 致す る か どう か を チェ ッ ク す る こと 
に な り ま す . すでに SystemC や C/C++ の モデ ル が ある の 
で , 期待 値 を 作成 する の は 簡単 で す . 

本 ツー ル は Verilog HDL の RTL 記 述 を 生成 し ます . 
SystemC と Verilog HDL の 混在 シミ ュ レ ーション が 可能 な 
検証 環境 を 利用 すれ ば , SystemC の モジ ュー ル と Verilog 
HDL の RTL 記述 を 同時 に 動か し て チェ ッ ク で きま す . ま 
た , SystemVerilog の DP( direct programming interface) 
を 使っ て C プ ログ ラム を 呼び 出す こと で , 期待 値 を 生成 す 
る 方法 も 利用 で きま す . 

今回 は シン プル に , RGB-YUV の 入力 値 と 期待 値 を ファ 
イル で 与え る こと に し ます . その た め , SystemC で JPEG 
の エン コー ド を 実行 し て いる と き に , RGB お よび YUV の 
デー タ を 2 進 表示 の テキ スト 形式 の ファ イル に 出力 し まし 
た . C 言 語 だ と 2 進数 に 関す る サポ ー ト が あり ませ ん が , 
SystemC は 変換 や 出力 フォ ー マ ッ ト の サポ ー ト が あり ま 
す . リス ト 9 に 示す よう に, 今回 は to string と hex を 
使い まし た . これ に より , 必要 な デー タ を 出力 する こと が 
KG: 


念 性 能 改善 の た め の 最 適 化 を 行う 
合成 し て シミ ュ レ ーション 結果 が 正しい こと を 確認 し た 
ら , 次 は 最適 化 を 行い ます . RGB-YUV 変換 で は , RGB の 


リス ト 9 SystemC で ダン プ す る 方 法 


SystemC の デー タ 型 と , to _string や hex と いっ た 記述 を 利用 する と , 2 
進数 や 16 進数 で ダン プ し や すい . 


SC_utint<8> 上 エ : 

エ = 了 : 

Cou <<t エ . モ o_grind(SC BTN,0) << 
// ox" << hex << tr << “ 


リス ト 10 ROM を 複数 に 分 割 
ROM を 九 つ に 分 割 し た た め , 係数 を 同時 に 読み 出せ る . 


ュ nt myctabYR [256] ={/* 省略 */} , // 1da map to_resouroe 
ュ nE myctabYG[256] ={/* 省略 */} , // 1da map to_resouroe 
ュ nt myctabYB [256] ={/* 省略 */} , // 1da map to_resouroe 
ュ nE myctabUR [256] ={/* 省略 */} , // 1da map to_resouroe 
ュ nE myctabUG [256] ={/* 省略 */} , // 1da map to_resouroe 
ュ nE myctabUB [256] ={/* 省略 */} , // 1da map to_resouroe 
ュ nE myctabVR [256] ={/* 省略 */} , // 1da map to_resouroe 
ュ nE myctabVG [256] ={/* 省略 */} , // 1da map to_resouroe 
ュ nt myctabVB [256] ={/* 省略 */} , // 1da map to_resouroe 


Yoid rgb yuY: :rgb yoo_ convert (1nt num col1s) { 
3nE. F, 可 。 お も: 
SC_1n モ <16> CoO1: 
Cha エ Y,U,Y: 
SC_1n キ <32> ty, tu, tY: 

For (co1 = 0: Co1 < num Co18: CO1++ ) { 
buf _R[oo1] : 
buf G[co1] : 
buf B[oo1] : 
myoctabYR [て ] + myctabYG [g] + myctabYB [b] : 
ty >> SCALEBTTS: 
buf Y[co1] =y: 
tu =myctabUR [ エ ] + myctabUG [d] + myctabUB [b] : 
u= tu >>SCALEBTTS : 
buf U[co1] =u: 
tV = myoctabVR [ エ ] + myotabVG [9] + myotabVB [D] : 
Y=  tYVY >>8SCALEBTTS: 
buf V[oo1] =Y: 


三 つ の 値 を 処理 する た め に , 9 個 の 係数 を 一 つの ROM か 
ら 読み 込ん で お り , この アク セス が 性 能 向 上 の ボ ト ルネ ッ 
ク に な っ て いま し た . C ベ ー ス 設計 で は 配列 を 使っ て 処 有 
を 記述 する こと が 多い の で す が , ここ で は この 問題 の 解決 
方 法 を 三 つ 紹 介し ます . 
e 方 法 1 : 一 つの ROM を 9 個 の ROM に 分 割 し , 同時 に ア 
クセ ス で きる よう に する 
これ は リス ト 5 の ctab で 定義 し た 2048 要 素 の 配列 を , 
リス ト 10 の よう に 9 分 割 し て , 256 要 素 の 配列 に する 方 法 
で ず ctabUB と ctabVR は 同じ 内 容 だ が , 同時 に アク セ 
ス す る た め に 個別 に 用 意 し て いる ). 
e 方 法 2: 前 述 の 9 個 の ROM の 内 容 を 組み 合わ せ 回 路 で 
実現 する 
あら か じ め 用 意 し た Verilog HDL の モジ ュー ル を 利用 し 
て ビヘイビア 合成 を 行い ます . その た め , リス ト 11 に 示 


F 地 


リス ト 11 ROM の 内 容 を 組み 合わ せ 回 路 で 実現 


九 つ に 分 割 し た ROM に 相当 する 組み 合わ せ 回 路 を HDL で 作成 し , ビ ヘ イ ビ 
ア 合 成 で その 組み 合わ せ 回 路 を 利用 し た. 


SC_MODULE (rgb_ yuv) { 
0 九 つ の ROM 相 当 の 較 

機能 を SystemC の 凶 

関数 と し て 実現 する 図 


/* 追加 */ 

vo1d Funo YR(inE 
vo1d Funo YG(inE 1: 
void funo YB(in 1 
void funo_UR(in 1 
vo1d Funo_UG(inE 
Yo1d Funo UB(in 1 
void funo VR(in 1 
void funo_VG(in 1 
vo1d Funo VB(inE 


/* 追加 終わ り */ 


1, Verilog HDL の モジ ュー ル ctab_YR に マッ ピン グ . 
ctab_YR の ina に が 対応 し , res に o が 対応 する 較 


Yo1d rgb yuV::Funo YR(1nE 1, 1nm *O) ドミ ョ デメ 


/* ida map to _modu1e otab YR 
1nput 1nma(1) :32, Outpu キ =re8g (Oo) : 32 


tb1 YR(1) : 


リス ト 12 生成 アル ゴリ ズム を 組み 合わ せ 回 路 で 実現 


今回 の 係数 テー ブル は 比較 的 単純 な 計算 で 生成 され て お り , 直接 その 生成 ア 
ル ゴ リ ズム を 関数 マク ロ ) と し て 実現 し た . 


deEine tb1] . (FTX0 299*1) 

defFine tb1 (FTX0_587*1 ) 

deEine Eb1 RB(i (FTX0 114*1+FTX ONEHATF) 
QeEine て tb (-FTX0 168*1) 

QeEine て tb (-FTX0 331*1) 

defFine tb1 | 
(FTXO 500*1+FTX CBCR OFF+FTX ONEHATE-1) 
defFine tb] VR(i) (Eb1 UB( ュ ) ) 

define tb1] VG(1)  (-FTX0O 418*1 ) 

defFine tb1] VB(1) (-FTX0_081*1) 


Yo1d rgb_ yuY: :rgb yoo_convert (in num col1s) { 
1nE や, , 5: 
BC_u1nm<16> CO1 : 
uns1gned char ,U,Y: 


For (co1 = 0: co1 < num Co18: CO1++ ) { 
buf _R[oco1] : 
buf G[co1] : 
buf B[co1] : 
Y= ((tb1 RY (て ) + tb1 RG(g) + tb1 RB(b) ) >> 
SCALiEBTT8) : 


buf Y[oo1] =y: 

u= ((tb1 UR (て) + tb1 UG(g) + tb1 UB(D) ) >> 
SCALEBTT8) : 
buf U[oo1] =u: 

= ( (tb1 VR (て ) + tb1 VG(g) + tb1 VB(b) ) >> 
SCALEBTTS) : 


buf V[co1 


す よ うに 関数 を 定義 し , Verilog HDL の モジ ュー ル と の 関 

連 を 示す アト リ ビ ュ ー ト を 付け て お きま す . 

e 方 法 3: 生成 アル ゴリ ズム を 組み 合わ せ 回 路 で 実現 する 
今回 の 係数 テー ブル は , 定数 *index と いう 比較 的 簡単 
な 形 で 定義 で きま す . リス ト 12 に 示す よう に , 計算 式 を 
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使っ て RGB-YUV 変換 を 行え ます . 

合成 結果 と し て , 初期 解 , 方 法 1, 方 法 2 方 法 3 の 各 実 
行 サ イク ル を 表 1 に 示し ます . どの 手法 が 良い か は ケー ス ・ 
バイ ・ ケ ー ス で す . ビヘイビア 合成 を 利用 する 利点 の 一 つ 
は , この よう に 短 時 間 で 複数 の アー キテ クチ ャ を 比較 ・ 検 
討 で きる こと で す . 

な お , 今回 , 最適 化 の 作業 を 行っ て いた と き に , ビ ヘ イ 
ビア 合成 に よっ て 生成 され た RTL 記述 と SystemC モ デル 
の シミ ュ レ ーション 結果 が 一 致し な い ケ ー ス が 見 つか り ま 
し た . 原因 を 追い か け て みる と , デー タ を 保持 する た め の 
ビッ ト 幅 が 不足 し て いる と ころ が あり まし た . この よう な 
と き は , 計算 結果 が 正しい ビッ ト 幅 に な る よう に 中 間 変 朋 
( 例え ば , 16 ビ ッ ト な ら sc int<16> な ど ) と し た り , 方 
法 2 で 述べ た HDL の モジ ュー ル を 利用 し て ビヘイビア 合成 
を 行う な どの 手法 が 有効 で す . 


@ DCT 処理 を 合成 , 最適 化 

今回 , DCT は MCU minimum coded unit) 単位 で 行う 
こと に し まし た . JPEG で は 処理 単位 を MCU と 呼び ます . 
今回 は Y 成 分 が 4 枚 , U 成 分 が 1 枚 , V 成 分 が 1 枚 と いう 
構成 で む 1 枚 は 8 画素 X 8 画素 の ブロ ッ ク を 指す ). 


サイ クル 数 


最初 の 実装 
方 法 1: ROM を 複数 個 使用 680 
方 法 2: モジ ュー ル を 使用 320 
方 法 3: 生成 関数 を 使用 320 
表 1 RGB-YUV の 実行 サイ クル 数 160 画 素 ) 
最適 化し て いな い 記 述 と 最適 化し た 記述 で は 実行 サイ クル 数 に 大 き な 差 が 出 


る . ビヘイビア 合成 で は , ツー ル が 最適 化す る 部 分 と 設計 者 が 最適 化す る 部 
分 を きち ん と 理解 し な けれ ば な ら な い . 


リス ト 13 DCT の モジ ュー ル 定 義 


nt  xTNP buffer[6] [64] : 


SC_MODULE (dct) { 
SC_1n<Doo] > c1ock : 
SC_1n<Doo] > て eg86e : 
SC_1nm<Doo] > 8 七 ar : 
SC_Out<Doo] > done : 


nt RTGHT SHTFT(1nE x,1nE shf) : 

nt DESCATLE (1nt xx, nt n): 

Yo1d ]peg_fFdoct is1ow (1rn) 』 

Yo1d ma1in DroCe88 () : 

SC_CTOR (dct) { 
SC_CTHREAD (main proces8, C1oCKk .pos ( ) ) : 
watching(reset .del]ayed() == 1): 


) 
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まず は , リフ ァ レ ンス を も と に し て , RGB-YUV 変換 と 
同じ よう に 8C_MODULE を 作成 し ます . リス ト 13 に 示す よ 
うに , DCT の デー タ は 入力 , 出力 と も に xTNP_ bufFfer を 
利用 し , この ほか に クロ ッ ク , リセ ッ ト , sgtart 信号 
qone 信号 を 用意 し まし た. 今回 の 合成 に は jpeg_fdot 
_is1ow を 使用 し て いま す . また , 今回 使用 し た ビ ヘ イ ビ 
ア 合 成 ツ ー ル で は , 合成 対象 の モジ ュー ル 内 で 使用 する 関 
数 は モジ ュー ル の メン バ 関 数 に する 必要 が あり ます . その 
た め , RIGHT SHTFT, DESCATE, ]peg_Fdct is1ow の 
三 つ を 定義 し て いま す . 

main process で は , リス ト 14 に 示す よう に 初期 化 を 
行い , while (1) で 無限 ルー プ を 作成 し て MCU 単 位 に 処 
理 を 行い ます . そこ で , 6 ブロ ッ ク に 対し て DCT を 実行 す 
る 記述 を 作成 し まし た . また , ポイ ンタ 変数 お よび アド レ 
ス 計 算 を 行っ て いた 部 分 を , 配列 と その イン デック ス に 変 
更 し まし た . 

DCT の 最適 化 は , 以下 の 手順 で 行い まし た . 

1) 配列 アク セス を 人 手 で 修正 

今回 使用 し た ビヘイビア 合成 ツー ル で は , 配列 へ の アク 
セス は メモ リ ( レジ スタ ・ ファ イル ) へ の アク セス と し て 実 
現さ れ ま す . いっ た ん メモ リ ・ アク セス と し て 実現 され て 
し まう と , それ 以上 の 最適 化 は 困難 と な り , 性 能 スル ー 
プッ ト や レイ テン シ ) 向上 の ボ ト ルネ ッ ク に な っ て し まい 
ます . と くに , お だ な メモ リ ・ ア クセ ス は 減ら すこ と が 重 
要 で す . 

今回 の DCT の 処理 で は , 入力 時 に 同じ アド レス に 2 回 ず 
つ ア クセ ス す る 記述 に な っ て いま す . ツー ル は 記述 の と お 
り に 合成 し て お り , この 部 分 を 人 手 で 最適 化し て や る こと 
で , サイ クル 数 を 削減 で きる と 予想 で きま す . そこ で , 1 
回 だ け ア クセ ス す る 記述 に 変更 し た と ころ , 約 3 割 も サイ 
クル 数 を 削減 で きま し た . か な り 大 き な 最 適 化 と 言え ます . 


リス ト 14 DCT の main_process の 定義 


Yo1d dot : :ma1tn DOCe88 ( ) { 
nt 1: 
/ / initia1ize 
done .write (0): 
wa1 キ (): 
while(1) { 


wa1i て unEi1 (start.del1ayed() == 
For(i=0: 1 < 6 : ユ ++ ) 
jpeg_fdct is1ow(1) : 
done . write (1) : 
Wa1 モ (): 
done . write(0) 
} 
) 


表 2 DCT の 実行 サイ クル 数 
8 画素 X 8 画素 の ブロ ッ ク を 6 個 処理 する サイ クル 数 を 示し た . 


サイ クル 数 
初期 解 2311 


配列 アク セス を 人 手 で 修正 1687 
関数 を HDL モジュール へ マッ ピン グ 1543 
デー タ を パッ キン グ 1207 


2) 関数 を HDL モジ ュー ル へ マッ ピン グ 

次 に , 内 部 で 呼び 出し て いる DESCATE を HDL で 設計 し 
た モジ ュー ル に 置き 換え ます . DE8CALE は さら に 
RIGHT SHTFT を 呼び 出し て いる の で , 2 個 の 関数 を 一 つ 
の HDL の モジ ュー ル に 置き 換え ます . これ に よっ て , さ 
ら に 2 割 , サイ クル 数 を 削減 で きま し た . 

3) デー タ を パッ キン グ 

最後 に , 配列 の アク セス を も う 少 し く ふ うし , 32 ビ ッ ト 
幅 に パッ ク す る こと で , 一 度 に 複数 個 の デー タ を やり 取り 
で きる よう に し まし た . 入力 の 配列 は 8 ビッ ト , 出力 の 配 
列 は 16 ビ ッ ト あれ ば よい た め , 入力 で は 4 個 の デー タ を 集 
め て 32 ビ ッ ト と し , 出力 で は 2 個 の デー タ を まとめ て 32 ビ 
ッ ト と し まし た . これ に より , さら に 2 割 の サイ クル を 削 
減 で きま し た . 

表 2 に , 最適 化 に よる サイ クル 数 の 変化 を 示し ます . 初 
期 解 と 比較 する と , デー タ を パッ キン グ し た も の は サイ ク 
ル 数 を 約 50% に 削減 で き て いま す . これ は , か な り 大 き な 
改善 と 言え ます . 


@⑯ ハー ドウ ェ ア 部 の 処理 時 間 を 評価 

ビヘイビア 合成 が 終了 し , RGB-YUV と DCT の 二 つ の 
モジ ュー ル の RTL が 完成 し まし た . も と の プロ ファ イル を 
と っ た SystemC モ デル を 使っ て , より 詳細 な 評価 を 行っ 
て みた いと 思い ます . 
評価 を 行う 手法 と し て , Verilog HDL と SystemC の 混 
在 シ ミュ レー ショ ン を 行う 方 法 や , 合成 ツー ル が 出力 し た 
Verilog HDL コー ド を SystemC に 変換 する ツー ル を 使う 
方 法 か など が あり ます が , この ほか に , 実行 時 間 を wat 文 
で 埋め 込ん で し まう と いう 方 法 も あり ます . ビヘイビア 合 
成 で は , 入力 され た SystemC モ デル の 機能 と 出力 され た 
RTL 記 述 の 機能 は 同じ で ぷ ポ ツー ル に バグ が な けれ ば …). 
そこ で , wait 文 で 遅延 を 入れ て も 動作 は 変わ ら な い 一 方 
で , 実行 時 間 の 評価 は か な り 正確 に 行え ます . 

RGB-YUV の 実行 時 間 は 3X ラ イン ・ サ イズ メ ク ロ ッ ク 


表 3 画像 サイ ズ 
ハー ドウ ェ ア 部 の 処理 時 間 


処理 時 間 ms) 


160X 160 649 

wait で 遅延 時 間 を 入れ た SystemC 320X 240 1948 
モデ ル を 利用 する こと に より , よ 

了 の 640X 480 77.93 
り 詳 細 な 評価 を 実施 する こと が で 

きる . 1280X 960 311.73 


周期 , 1 ブロ ッ ク の DCT の 実行 時 間 は 200 メ クロ ッ ク 周 】 
と し て 見 積もる こと が で きま す . この 二 つ は , SystemC で 
は 以下 の よう に 書く こと が で きま す . 


wait (3*num co1s*CYCTE TTME, SC NS) : 
wait (200*CYCLE TTME, SC NS) , 


さら に コン パイ ル し , 実行 する と , 表 3 の よう な 見 積 も 
り を 得る こと が で きま す . ハー ド ウェ ア 化 し た 部 分 は 正 し 
い 値 な の で , か な り 精度 の 高い 見 積もり だ と 思い ます . た 
だ し , 今回 は ソフ トウ ェ ア に つい て の 時 間 を 入れ て いま せ 
ん . つま り , この 時 間 だ け で JPEG の エン コー ド 処理 が 完 
了 す る わけ で は あり ませ ん . 

また , この モデ ル で は 逐 次 処理 で 見 積もり を 行っ て いま 
す . 機能 の 一 部 を ハー ド ウェ ア 化 する と , ソフ ト ウェ ア の 部 
分 と ハー ド ウェ ア の 部 分 を 同時 並行 に 動作 させ る こと が で 
きる た め , 同じ 時 間 で より 多く の 処理 を 行え を ます. そし て , 
r 列 に 動作 する ハー ド ウェ ア を 増やす こと で , さら に 処理 
を 高速 化 で きま す . こう し た 評価 を 正確 に 行う た め に は , 
SystemC の モデ ル を 変更 ・ 修正 し て いく 必要 が あり ます . 

うま く モジュール 化し , イン ター フェ ー ス を きち ん と 定 
義 す る こと に より , より 詳細 な レベ ル で 分 析 ・ 評価 で きる 
よう に な り ま すし , 再 利用 性 が 高い モデ ル を 作る こと も で 
きま す . と くに SystemC で は トラ ン ザ クシ ョ ン ・ レ ベル ・ 
モデ リン TLM) が 今後 重要 と な っ て きま す . 合成 の 面 
か ら 見 る と , ビヘイビア 合成 ツー ル が どこ まで の 記述 スタ 
イル に 対応 で きる か な ど が , 今後 の 課題 と な り そ う で す . 


あか ぼ し ・ ひ ろ き 
( 株 ) ロジ ッ ク ・ リ サー チ 


筆者 プロ フィ ー ル > 

赤星 博 輝 . ロジ ッ ク ・ リ サーチ に 所 属し て お り , ハー ド ウェ ア か ら ソ フ 
ト ウェア ま で 担当 する な ん で も 屋 . も と も と は EDA ツ ー ル の 開発 を 行 
っ て いた が , 現在 は ハー ドウ ェ ア 設 計 か ら 徐々 に 検証 技術 に 移っ て い 
る と ころ . 今後 , どの よう な し ご と を する の か は , 世の中 の 進み か た 
し だ いで す . 
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